当前信息时代在互联网上产生的数据的指数增长是数字经济的推动力。信息提取是累积大数据中的主要价值。对统计分析和手工设计的规则机器学习算法的大数据依赖性被人类语言固有的巨大复杂性所淹没。自然语言处理(NLP)正在装备机器,以了解这些人类多样化和复杂的语言。文本分类是一个NLP任务,它会自动识别基于预定义或未定标记的集合的模式。常见的文本分类应用程序包括信息检索,建模新闻主题,主题提取,情感分析和垃圾邮件检测。在文本中,某些单词序列取决于上一个或下一个单词序列以使其充分含义。这是一项具有挑战性的依赖性任务,要求机器能够存储一些以前的重要信息以影响未来的含义。诸如RNN,GRU和LSTM之类的序列模型是具有长期依赖性任务的突破。因此,我们将这些模型应用于二进制和多类分类。产生的结果非常出色,大多数模型在80%和94%的范围内执行。但是,这个结果并不详尽,因为我们认为如果机器要与人类竞争,可以改进。
translated by 谷歌翻译
深度学习表明,针对不同领域(例如图像和语音识别)的传统机器学习方法有了重大改进。他们在基准数据集上的成功通过从业人员通过验证的模型转移到现实世界中。使用监督学习预处理的视觉模型需要大量昂贵的数据注释。为了应对这一限制,已经提出了DeepCluster(一种简单且可扩展的视觉表示预处理)。但是,该模型的基本工作尚不清楚。在本文中,我们分析了DeepCluster内部质量,并详尽地评估了各种超参数在三个不同数据集上的影响。因此,我们提出了一个解释算法在实践中起作用的原因。我们还表明,深簇收敛和性能高度取决于卷积层随机初始化过滤器的质量与所选簇数的相互作用。此外,我们证明连续聚类对于深簇收敛并不重要。因此,聚类阶段的早期停止将减少训练时间,并允许算法扩展到大型数据集。最后,我们在半监督环境中得出了合理的超参数选择标准。
translated by 谷歌翻译
由于早期的机器学习模型,诸如准确性和精确度等指标已成为评估和比较训练模型的事实上的方法。但是,单个度量号并未完全捕获模型之间的相似性和差异,尤其是在计算机视觉域中。在某个数据集上具有很高精度的模型可能会在另一个数据集上提供较低的精度,而无需任何进一步的见解。为了解决这个问题,我们基于一种称为Disect的最新可解释性技术,以引入\ textit {模型可解释性},该技术根据他们所学的视觉概念(例如对象和材料)来确定模型如何相互联系或补充。为了实现这一目标,我们将13个表现最佳的自制模型投射到一个学习的概念(LCE)空间中,该概念从学识渊博的概念的角度揭示了模型之间的邻近。我们将这些模型的性能进一步跨越了四个计算机视觉任务和15个数据集。该实验使我们能够将模型分为三类,并首次揭示了不同任务所需的视觉概念类型。这是设计跨任务学习算法的一步。
translated by 谷歌翻译
由于传感器,社交媒体等,过去几十年来,数据流的分析已经受到相当大的关注。它旨在识别无序,无限和不断发展的观察流中的模式。聚类此类数据需要一些时间和内存的限制。本文介绍了一种新的数据流群集方法(IMOC流)。与其他聚类算法不同,这种方法使用两个不同的目标函数来捕获数据的不同方面。 IMOC流的目标是:1)通过使用空闲时间来减少计算时间以应用遗传操作并增强解决方案。 2)通过引入新的树概要来减少内存分配。 3)通过使用多目标框架查找任意形状的群集。我们对高维流数据集进行了实验研究,并将其与众所周知的流聚类技术进行了比较。实验表明我们的方法在优化时间和内存的同时在任意形状,紧凑且分开的群集中分区数据流的能力。我们的方法在NMI和Arand测量方面也表现出大部分流算法。
translated by 谷歌翻译
了解信任如何建造在时间之中至关重要,因为信托在接受和采用自动车辆(AVS)中发挥着重要作用。本研究旨在调查制度绩效和参与者信任前提条件对接管过渡期间动态情境信任的影响。我们在观看了30个视频时,通过报告和行为措施评估了42名参与者的动态情境信任。该研究是3乘2个混合受试者设计,其中受试者内部变量是系统性能(即,95 \%,80 \%和70 \%的精度水平)和受试者之间的变量是前提条件参与者的信任(即俯视和弱者)。我们的研究结果表明,参与者迅速调整了他们的自我报告的情境信托(SST)水平,这些信托水平与信任前提条件的系统性能的不同准确度水平一致。然而,参与者的行为情况信托(BST)受到他们信任前提的影响,不同的准确性水平。例如,与底下前提条件相比,过度截图的前提条件显着增加了协议分数。与过度截图的前提条件相比,底下前提条件显着降低了开关分数。这些结果对设计用于条件AVS的车载信任校准系统具有重要意义。
translated by 谷歌翻译